# Modellazione e Sintesi di un Moltiplicatore Floating-point Single Precision

Enrico Sgarbanti - VR446095

Sommario—Questo documento mostra la realizzazione di un moltiplicatore in virgola mobile a precisione singola realizzato in VHDL, Verilog e SystemC ed un componente che permetta di eseguire due moltiplicazioni in parallelo. Il tutto è accompagnato da testbench, sintesi dei componenti VHDL e verilog ed un confronto con l'High-level-Synthesis di un moltiplicatore scritto in c++.

#### I. Introduzione

Il sistema è composto da un modulo top-level chiamato "double\_multiplier" il quale esegue la moltiplicazione di due operandi dati in input nello stesso ciclo di clock in cui ready viene posto a 1, e i due opereandi passati al ciclo di clock successivo

Nell'introduzione viene descritto in maniera astratta quello che poi viene dettagliato nel seguito del report. Una buona scaletta per l'introduzione può essere la seguente:

- Descrizione ad alto livello delle principali caratteristiche del sistema che si vuole modellare.
- Descrizione delle motivazioni principali per l'utilizzo delle tecnologie descritte nel corso. Qual è il problema che si vuole risolvere?
- Descrizione dei passi utilizzati per arrivare all'implementazione finale. Descrivere la motivazione di ciascun passo.
  La descrizione dei passi dovrebbe formare la descrizione del flusso di lavoro svolto per completare l'assignment.
- Rapidissima descrizione dei risultati principali.

L'introduzione non dovrebbe andare oltre la metà della seconda colonna (nel caso a due colonne), o la prima pagina (nel caso a colonna singola): bisogna cercare di essere concisi (e chiari). Alla fine, l'introduzione è solo "chiacchiere": deve semplicemente rendere chiari quali sono gli obiettivi del lavoro (e nel caso del corso, deve far capire a me che avete gli obiettivi chiari in testa). Consiglio: l'introduzione (e spesso l'abstract) è l'ultima parte che viene completata.

### II. BACKGROUND

## A. Progettazione hardware

Per la realizzazione di componenti hardware si possono utilizzare diverse tecniche e linguaggi. Un primo approccio è descrivere i componenti a livello RT utilizzando linguaggi di descrizione hardware (HDL) come VHDL e Verilog. Un HDL è un linguaggio specializzato per la descrizione della struttura e del comportamento di circuiti elettronici, in particolare circuiti logici digitali, e la loro analisi e simulazione. Permette inoltre la sintesi di una descrizione HDL in una netlist (una specifica di componenti elettronici fisici e il modo in cui

sono collegati insieme), che può quindi essere posizionata e instradata per produrre l'insieme di maschere utilizzate per creare un circuito integrato[1].

Un secondo approccio è descrivere le funzionalità del componente con linguaggi più ad alto livello come C, C++ o SystemC[2] e fare High Level Syntesis (HLS) per ottenere una descrizione dell'hardware a livello RT[3].

Entrambi gli approcci hanno vantaggi e svantaggi. In particolare HLS riduce i tempi, ma la descrizione hardware generata sarà meno ottimizzata rispetto a quella che si potrebbe ottenere usando HDL.

## B. IEEE 754 single-precision binary floating-point format

Questo standard definisce il formato per la rappresentazione dei numeri in virgola mobile (compreso  $\pm 0$  e i numeri denormalizzati; gli infiniti e i NaN, "not a number"), ed un set di operazioni effettuabili su questi.

In particolare la versione a precisione singola descrive il numero con 32 bit: 1 bit per segno (sign), 8 bit per l'esponente (esp) e 23 bit per la mantissa (mant)[4].



Figura 1. IEEE 754 single precision

Per la codifica in numero binario:

- Dal segno si ricava il bit più significativo (1 se negativato 0 altrimenti).
- Si converte il numero in binario.
- Si sposta la virgola a sinistra fino ad avere un numero nella forma  $1,\ldots 2^E.$
- La mantissa è la parte a destra della virgola, riempita con zeri a destra fino a riempire i 23 bit.
- L'esponente è 127+E dove E è l'esponente ricavato dallo shift.

Per la decodifica del numero binario:

$$(-1)^{sign} \cdot 2^{(esp-127)} \cdot (1 + \sum_{i=1}^{23} b_{23-i} \cdot 2^{-i})$$

#### C. Moltiplicazione di due numeri floating-point

Qui è riportato l'algoritmo usato per la moltiplicazione fra floating point. Guardare qui per ulteriori dettagli[5].

1

| Categoria             | Esp.  | Mantissa  |
|-----------------------|-------|-----------|
| Zeri                  | 0     | 0         |
| Numeri denormalizzati | 0     | non zero  |
| Numeri normalizzati   | 1-254 | qualunque |
| Infiniti              | 255   | 0         |
| Nan (not a number)    | 255   | non zero  |

Figura 2. IEEE 754 special case



Figura 3. IEEE 754 multiplication

#### III. METODOLOGIA APPLICATA

Il primo passo è stato la realizzazione della EFSM di *multiplier* e *double\_multiplier* che ha portato ad aquisire una visisione generale.

Dopo si è passati all'implementazione a livello RT con Vivado[6] del *multiplier* sia in Verilog che in VHDL. Un primo test è stato fatto con TLC-script osservando gli output a determinati input.

Consolidati questi moduli è stato poi possibile realizzato in Verilog il *double\_multiplier* che prende i due componenti e li usa per calcolare due moltiplicazioni. A questo punto è stato realizzato un test più accurato in verilog controllando tutti i casi particalari per poi passare alla sintesi.

È anche stato rifatto tutto in SystemC dove si è potuto fare un testbench più fine grazie alla potenza del c++.

Infine si è provato a fare l'high level syntesis da un semplice codice c++ per confrontare i risultati ottenuti.

#### A. Vincoli ed Architettura

Il progetto a diversi vincoli:

 Il multiplier deve essere scritto in VHDL, verilog e systemC.

- Il double\_multiplier deve essere scritto in systemC e un linguaggio a scelta tra VHDL e verilog.
- Gli operandi e il risultato devono essere a 32 bit.
- I due componenti devono essere sintetizzabili sulla FPGA "xc7z020clg400-1" la quale ha a disposizione solo 125 porte.

Per far fronte al limite delle porte logiche è stato utilizzato il protocollo di handshake. Vengono quindi utilizzati gli stessi 32 bit per il risultato e altri 64 bit per le due coppie di operandi. Al primo ciclo di clock, con il flag "ready" uguale a 1, verranno trasmessi i primi due operandi e al ciclo successivo gli altri due. Dopodichè si aspetterà il complementanto delle moltiplicazioni, segnalato col flag "done" uguale a 1, per poi trasmettere il primo risultato, e il secondo al ciclo di clock successivo.

L'architettura con VHDL e Verilog è mostrata in figura 4. Quella per SystemC è analoga.

I segnali intermedi sono stati omessi da questa figura, ma vengono descritti nelle sezioni successive.



Figura 4. Architettura RTL

# B. Modellazione della EFSM del multiplier [Figura 5]

Questo componente esegue la moltiplicazione tra numeri floating point a precisione singola.

I segnali intermedi utilizzati sono:

- rst (1 bit): riporta il sistema allo stato iniziale.
- ready (1 bit): permette al sistema di uscire dallo stato iniziale.
- norm\_again (1 bit): indica che il numero ha bisogno di essere ulteriormente normalizzato.
- res\_type (2 bit): indicare il tipo del risultato. Solo nel caso in cui sia un numero si procede all'elaborazione, mentre negli altri casi si passa direttamente allo stato finale. Il caso del numero denormalizzato è gestito come se fosse normalizzato.

I registri intermedi utilizzati sono:

- STATE e NEXT\_STATE (4 bit): rappresentano lo stato attuale e lo stato prossimo.
- op1\_type e op2\_type (2 bit): per indicare il tipo degli operandi ovvero 0, NaN, ∞ oppure un numero. Solo se sono entrambi sono dei numeri res\_type sarà un numero.
- **esp\_tmp** (10 bit): permette di eseguire le operazioni per ricavare l'esponente finale senza perdere informazioni.

- mant\_tmp (48 bit): permette di eseguire le operazioni per ricavare la mantissa finale senza perdere informazioni.
- sign1, sign2, esp1, esp2, mant1, mant2: rappresentano le componenti dei due operandi.

Sono necessari 14 stati:

- ST\_START: pone *done* e *norm\_again* a 0 ed estre le informazioni di segno, esponente e mantissa dei due operandi. Si rimane qui finchè *ready* vale 0 altrimensi si passa a *ST\_EVAL1*. Se in qualsiasi stato si riceve *reset* uguale a 1 allora si passa a questo stato.
- ST\_EVAL1 e ST\_EVAL2: ricava rispettivamente il tipo di op1 e op2 fra T\_ZER, T\_INF, T\_NAN e T\_NUM
- **ST\_EVAL3:** ricava il tipo del risultato in base al tipo di op1 e op2.
- **ST\_CHECK1:** controlla se *res\_type* è uguale a T\_NUM e in tal caso passa a *ST\_ELAB* altrimenti a *ST\_FINISH*.
- ST\_ELAB: esegue la somma tra i due esponenti e la sottrazione di 127 in quanto entrambi, per lo standard, sono incrementati di 127: (esp+127)=(esp1+127)+(esp2+127)-127. Per compiere la somma è necessario usare una variabile  $esp\_tmp$  di 10 bit perchè altrimenti con 8 bit si andrebbe in overflow con valori che dopo la sottrazione sarebbero rappresentabili con 8 bit e quindi validi. Viene poi eseguita anche la moltiplicazione delle due mantisse, che essendo a 23 bit più un bit che vale sempre 1, necessita di una variabile  $mant\_tmp$  di almeno 48 bit
- ST\_UNDERF: controlla se *esp\_tmp* è in uno stato di underflow, ovvero guardando se il bit *esp\_tmp[9]*, che nel complemento a 2 indica il segno, è 1. Infatti i valori disponibili per l'esponente vanno da 0 a 255. Il controllo dell'overflow viene fatto in seguito all'arrotondamento per evitare di farlo due volte.
- ST\_CHECK2: passa allo stato ST\_FINISH se res\_type
  è diverso da T\_NUM, perchè diventato T\_ZER per l'underflow.
- ST\_NORM1: compie la normalizzazione della mantissa che deve sempre essere della forma *1.bits*. Essendo la virgola posta tra il 46esimo bit e il 45esimo, si verificano due casi: Se il 47esimo bit vale 1 bisogna incrementare l'esponente, altrimenti il valore è già corretto, ma viene effettuato uno shift a sinistra per trattare allo stesso modo i due casi durante l'arrotondamento.
- ST\_ROUND: effettua l'eventuale arrotondamento dovuto al fatto che il valore della mantissa è attualmente a 48 bit, ma bisogna portarlo a 24 bit. L'arrotondamento è fatto per eccesso, quindi si incrementera mant\_tmp[47:24] solo se mant\_tmp[23:00] è ≥ a "01..1". L'arrotondamento effettivo verrà fatto nello stato ST\_NORM2, qui ci si limita a porre norm\_again uguale a 1 per poterci andare.
- *ST\_CHECK3*: passa allo stato *ST\_NORM2* se *norm* è uguale a 1 oppure allo stato *ST\_OVERF* se *norm* è uguale a 0.
- ST\_NORM2: effettua il vero arrotondamento della mantissa. Bisogna tenere conto del caso in cui sia della forma "1..1" e che quindi con l'incremento vada a "0..0" e venga incrementato l'esponente.

- ST\_OVERF: verifica se l'esponente del risultato è in uno stato di overflow, ovvero guardando se il bit esp\_tmp[8] vale 1 ovvero se corrisponde ad un valore maggiore di 255.
- **ST\_FINISH:** pone *done* uguale 1 e ricava *res[31]*, ovvero il segno del risultato facendo lo XOR fra i segni degli operandi. In base al valore di *res\_type* si ricavano gli altri bits e si torna allo stato iniziale.

C. Modellazione della EFSM del double\_multiplier (textitFigure 6)

I segnali utilizzati per la comunicazione sono:

- rst: (1 bit) per riportare il sistema allo stato iniziale.
- **ready:** (1 bit) per permettere al sistema di uscire dallo stato iniziale .
- **done1:** (1 bit) che indica quando il valore attuale di "res1" è il risultato della moltiplicazione.
- done2: (1 bit) che indica quando il valore attuale di "res2" è il risultato della moltiplicazione.

Sono inoltre necessari 8 stati:

- ST\_START: in cui si pone textitdone, textitready1 e textitready2uguali a 0 e si inizializzano textitop1\_tmp1 e textitop2\_tmp1 rispettivamenete con i valori di textitop1 e textitop2 i quali serviranno per il primo moltiplicatore. In esso si rimane finchè textitready vale 0 altrimensi si passa a textitST\_RUN1.
- ST\_RUN1: in cui si pone textitready1 uguale a 1, attivando quindi il primo moltiplicatore, e si inizializzano textitop1\_tmp2 e textitop2\_tmp2 rispettivamenete con i valori di textitop1 e textitop2 i quali serviranno per il secondo moltiplicatore.
- ST\_RUN2: in cui si pone textitready1 uguale a 0 e textitready2 uguale a 1, attivando quindi il secondo moltiplicatore
- ST\_WAIT: in cui si pone textitready2 uguale a 0 e si aspetta che textitdone1 o textitdone2 diventino 1.
- **ST\_WAIT1:** si arriva in questo stato se textitdone2 vale 1, cioè se il secondo moltiplicatore ha finito e si resta qui finchè non finisce anche il primo.
- **ST\_WAIT2:** si arriva in questo stato se textitdone1 vale 1, cioè se il primo moltiplicatore ha finito e si resta qui finchè non finisce anche il secondo.
- ST\_RET1: si arriva in questo stato quando entrambi i moltiplicatore hanno finito. Qui si pone textitdone uguale a 1 e textitres uguale al risultato del primo moltiplicatore cioè textitres1.
- ST\_RET2: ora si pone textitres uguale al risultato del secondo moltiplicatore cioè textitres2 e si ritorna allo stato iniziale.

### D. Implementazione RTL

L'intefaccia del textitdouble\_multiplier è formata dai segnali di input: textitclk, rst, ready, op1, op2; E i segnali di output textitres, done.

L'intefaccia del textitmultiplier è formata anch'essa dai segnali di input: textitclk, rst, ready, op1, op2; E i segnali di output textitres, done, dove:

- textitclk, rst sono collegati ai segnali analoghi del textitdouble\_multiplier.
- textitready è collegato al segnale interno del textitdouble\_multiplier textitready1, per multiplier1 e textitready2 per multiplier2.
- textitop1 e op2 sono collegati ai segnali interni del textitdouble\_multiplier textitop1\_tmp1, op2\_tmp1, per multiplier1 e textitop1\_tmp1, op2\_tmp2 per multiplier2.
- textitres è collegato al segnale interno del textitdouble\_multiplier textitres1, per multiplier1 e textitres2 per multiplier2.
- textitdone è collegato al segnale interno del textitdouble\_multiplier textitdone1, per multiplier1 e textitdone2 per multiplier2.

textitop1\_tmp1, op2\_tmp1, op1\_tmp2, op2\_tmp2 sono necessari al fine di conservare i valori della prima coppia di operandi e della seconda, che verranno passati ai moltiplicatori dei cicli di clock dopo.

La FSMD è realizzata con due processi:

- fsm: processo asincrono attivato con la variazione di qualche segnale interno. Esso ha il compito di calcolare e aggiornare lo stato prossimo "NEXT\_STATE".
- datapath: processo sincrono che ha il compito di aggiornare lo stato attuale, elaborare gli output. Esso viene anche attivato dal fronte di salita del reset al fine di riportare lo stato a quello iniziale.

#### E. Implementazione RTL con Verilog e VHDL

Si creano i seguenti files:

- **verilog\_multiplier:** implementazione verilog del moltiplicatore (sintetizzabile)
- **vhdl\_multiplier:** implementazione vhdl del moltiplicatore (sintetizzabile)
- **double\_multiplier:** implementazione verilog del doppio moltiplicatore (sintetizzabile)
- **testbench:** implementazione verilog di un testbench da usare solo in simulazione

In textitverilog\_multiplier e textitdouble\_multiplier

- Sono definiti come "wire" tutti i segnali collegati alle porte di input mentre come "reg" tutti quelli collegati alle porte di output.
- Sono definiti come "reg" tutti i segnali interni di communicazione.
- Gli stati e textitop1\_type, op2\_type, res\_type sono stati definiti come "parameter".

# In textitvhdl\_multiplier:

- Sono usate le librerie "IEEE.STD\_LOGIC\_1164.ALL" per abilitare i tipi std\_logic e "use IEEE.NUMERIC\_STD.ALL" per usare funzioni aritmetiche con valori signed e unsigned
- Sono definiti come "signal" tutti i segnali collegati alle porte di input e output.
- Sono definiti come "signal" tutti i segnali interni di communicazione.
- Sono definite come "variable" textitsign1, sign2, esp1, esp2, esp\_tmp, mant1, mant2, mant\_tmp, op1\_type,

- op2\_type perchè utilizzati solo all'interno del processo "datapath".
- Gli stati e textitop1\_type, op2\_type, res\_type sono stati definiti all'interno del textitpackage rispettivamente come "MULT\_STATE" e "MULT\_TYPE".
- L'architettura utilizzata segue lo stile "behavioral", cioè quello più "program-like" in quanto più semplice e chiaro per descrivere una FSMD con due processi.

# F. Implementazione RTL con SystemC

Si creano i seguenti files e directory:

- Makefile: tool per la compilazione automatica del progetto. Richiede che la variabile d'ambiente SY-STEMC\_HOME contenga il path alla libreria di SystemC.
- bin: directory che contiene l'eseguibile textitdouble\_multiplier\_RLT.x (generato dopo la compilazione) e textitwave.vcd (generato dopo l'esecuzione dell'eseguibile).
- obj: directory che contiene i files oggetto (generati dopo la compilazione)
- include: directory che contiene gli headers textitdouble\_multiplier\_RTL.hh, textitmultiplier\_RTL.hh, textittestbench\_RTL.hh. Qui sono definite tutte le porte, segnali, variabili ed enumerazioni dei vari componenti
- **testbench:** directory che contiene i files sorgenti textitdouble\_multiplier\_RTL.cc, textitmultiplier\_RTL.cc, textittestbench\_RTL.cc e textitmain\_RTL.cc.

In textitdouble\_multiplier\_RTL.hh

- Sono definiti come "sc\_signal" tutti i segnali collegati alle porte di input e output.
- Sono definiti come "sc\_signal" tutti i segnali interni di communicazione.
- Gli stati sono stati definiti come "enumerazioni".

In textitmultiplier RTL.hh

- Sono definiti come "sc\_signal" tutti i segnali collegati alle porte di input e output.
- Sono definiti come "sc\_signal" tutti i segnali interni di communicazione.
- Sono definite come variabili di SystemC textitsign1, sign2, esp1, esp2, esp\_tmp, mant1, mant2, mant\_tmp, op1\_type, op2\_type perchè utilizzati solo all'interno del processo "datapath".
- Gli stati e textitop1\_type, op2\_type, res\_type sono stati definiti come "enumerazioni".

A differenza di verilog e VHDL, in SystemC è necessario un file "main" che contenga il metodo textitsc\_main e che permetta di collegare il componente da testare con il testbench. In esso si utilizza textitsc\_create\_vcd\_trace\_file per salvare le tracce necessarie a lanciare una simulazione con tools come gtkwave.

## IV. RISULTATI

Il testbench verilog, textitFigure 7, aspetta un po di tempo, perchè altrimenti si verificherebbero problemi dovuti allo startup della FPGA nella simulazione post-sintesi, e poi esegue due volte il textitdouble\_multiplier, prima con due coppie di operandi che danno come risultato dei numeri normali, e poi con due coppie di operandi che danno come risultati dei casi speciali.

Il testbench in SystemC mette a disposizione tre thread da attivare togliendo i commenti nel costruttore del "TestbenchModule":

- **targeted\_test:** che analogamente a quello in Verilog, testa due volte il textitdouble\_multiplier. textitFigure 8.
- **rnd\_test:** che prova textitTESTS\_NUM moltiplicazioni generate casualmente tra un intervallo modificabile. textitFigure 9.
- run\_all: che prova tutte le possibili combinazioni cioè 2<sup>32</sup> \* 2<sup>32</sup>. Si può limitare il numero di combinazioni evitando di contare il bit del segno, in quanto il calcolo è un semplice xor. Poi si possono escludere tutti i numeri denormalizzati. Ma anche così il tempo necessario a completarlo è troppo elevato per la mia macchina.

Con la sintesi si sono ottenuti i seguenti risultati:

Questa sezione può contenere anche riflessioni personali sui risultati ottenuti. Importante: tutte le affermazioni devono essere supportate da numeri<sup>1</sup>.

#### V. CONCLUSIONI

Le conclusioni dovrebbero riassumere in poche righe tutto ciò che è stato fatto. Un paio di righe descrivono i risultati osservati, in modo da introdurre poi la conclusione "vera e propria". Nel caso del corso, la "lezione da portare a casa" sarà quello che si è imparato svolgendo l'elaborato.

# RIFERIMENTI BIBLIOGRAFICI

- [1] "Hdl," https://en.wikipedia.org/wiki/Hardware\_description\_language.
- [2] Accellera Systems Initiative et al., "Systemc," Online, December, 2013.
- [3] "Hls," https://en.wikipedia.org/wiki/High-level\_synthesis.
- [4] "Iee 754," https://en.wikipedia.org/wiki/IEEE\_754.
- [5] "Iee 754 multiplication," https://en.wikipedia.org/wiki/Single-precision\_floating-point\_format.
- [6] "Vivado," https://www.xilinx.com/products/design-tools/vivado.html.

#### APPENDICE



Figura 5. EFSM del multiplier



Figura 6. EFSM del double\_multiplier



Figura 7. Simulazione in Verilog



Figura 8. Simulazione in SystemC con targeted\_test



Figura 9. Simulazione in SystemC con rnd\_test